为了解决单声道语音增强问题,已经进行了大量研究,以通过在语音混合物或时间域中学到的内域进行操作来增强语音,或者在时间域中 - 固定的全乐队短时间傅立叶的频率域变换(STFT)频谱图。最近,已经提出了一些关于基于子频段的语音增强的研究。通过通过子兰频谱图上的操作增强语音,这些研究表明了DNS2020基准数据集上的竞争性能。尽管有吸引力,但这个新的研究方向尚未得到充分探索,并且仍然有改进的余地。因此,在这项研究中,我们深入研究了最新的研究方向,并提出了一个基于子兰的语音增强系统,具有感知动机的优化和双重变换,称为PT-FSE。特别是,我们提出的PT-FSE模型通过三项努力改善了其主链(一种全频段和子融合模型)。首先,我们设计了一个旨在加强全局频率相关性的频率变换模块。然后引入时间转换以捕获远距离时间上下文。最后,提出了一种新的损失,具有人类听觉感知的性质杠杆作用,以促进该模型专注于低频增强。为了验证我们提出的模型的有效性,在DNS2020数据集上进行了广泛的实验。实验结果表明,我们的PT-FSE系统在其骨架上取得了重大改进,但也比当前的最新面积胜过,而比SOTA小27%。在基准数据集上,NB-PESQ平均为3.57,我们的系统提供了迄今报告的最佳语音增强结果。
translated by 谷歌翻译
电子商务在通过互联网增强商人的能力方面已经大有帮助。为了有效地存储商品并正确安排营销资源,对他们来说,进行准确的总商品价值(GMV)预测非常重要。但是,通过数字化数据的缺乏进行准确的预测是不算平的。在本文中,我们提出了一个解决方案,以更好地预测Apay应用程序内的GMV。得益于Graph Neural网络(GNN),它具有很好的关联不同实体以丰富信息的能力,我们提出了Gaia,Gaia是一个图形神经网络(GNN)模型,具有时间移动意识注意。Gaia利用相关的电子销售商的销售信息,并根据时间依赖性学习邻居相关性。通过测试Apleay的真实数据集并与其他基线进行比较,Gaia表现出最佳性能。盖亚(Gaia)部署在模拟的在线环境中,与基线相比,这也取得了很大的进步。
translated by 谷歌翻译
下一代高分辨率汽车雷达(4D雷达)可以提供额外的高程测量和较密集的点云,从而在自动驾驶中具有3D传感的巨大潜力。在本文中,我们介绍了一个名为TJ4Dradset的数据集,其中包括4D雷达点用于自动驾驶研究。该数据集是在各种驾驶场景中收集的,连续44个序列中总共有7757个同步帧,这些序列用3D边界框和轨道ID很好地注释。我们为数据集提供了基于4D雷达的3D对象检测基线,以证明4D雷达点云的深度学习方法的有效性。可以通过以下链接访问数据集:https://github.com/tjradarlab/tj4dradset。
translated by 谷歌翻译
基于伪标签的半监督学习(SSL)在原始数据利用率上取得了巨大的成功。但是,由于自我生成的人工标签中包含的噪声,其训练程序受到确认偏差的影响。此外,该模型的判断在具有广泛分布数据的现实应用程序中变得更加嘈杂。为了解决这个问题,我们提出了一种名为“班级意识的对比度半监督学习”(CCSSL)的通用方法,该方法是提高伪标签质量并增强现实环境中模型的稳健性的插手。我们的方法不是将现实世界数据视为一个联合集合,而是分别处理可靠的分布数据,并将其融合到下游任务中,并将其与图像对比度融合到下游任务中,以更好地泛化。此外,通过应用目标重新加权,我们成功地强调了清洁标签学习,并同时减少嘈杂的标签学习。尽管它很简单,但我们提出的CCSSL比标准数据集CIFAR100和STL10上的最新SSL方法具有显着的性能改进。在现实世界数据集Semi-Inat 2021上,我们将FixMatch提高了9.80%,并提高了3.18%。代码可用https://github.com/tencentyouturesearch/classification-spoomls。
translated by 谷歌翻译
自动驾驶技术的加速开发对获得大量高质量数据的需求更大。标签,现实世界数据代表性是培训深度学习网络的燃料,对于改善自动驾驶感知算法至关重要。在本文中,我们介绍了PANDASET,由完整的高精度自动车辆传感器套件生产的第一个数据集,具有无需成本商业许可证。使用一个360 {\ DEG}机械纺丝利达,一个前置,远程LIDAR和6个摄像机收集数据集。DataSet包含100多个场景,每个场景为8秒,为目标分类提供28种类型的标签和37种类型的语义分割标签。我们提供仅限LIDAR 3D对象检测的基线,LIDAR-Camera Fusion 3D对象检测和LIDAR点云分割。有关Pandaset和开发套件的更多详细信息,请参阅https://scale.com/open-datasets/pandaset。
translated by 谷歌翻译
大多数元学习方法都假设存在于可用于基本知识的情节元学习的一组非常大的标记数据。这与更现实的持续学习范例形成对比,其中数据以包含不相交类的任务的形式逐步到达。在本文中,我们考虑了这个增量元学习(IML)的这个问题,其中类在离散任务中逐步呈现。我们提出了一种方法,我们调用了IML,我们称之为eCISODIC重播蒸馏(ERD),该方法将来自当前任务的类混合到当前任务中,当研究剧集时,来自先前任务的类别示例。然后将这些剧集用于知识蒸馏以最大限度地减少灾难性的遗忘。四个数据集的实验表明ERD超越了最先进的。特别是,在一次挑战的单次次数较挑战,长任务序列增量元学习场景中,我们将IML和联合训练与当前状态的3.5%/ 10.1%/ 13.4%之间的差距降低我们在Diered-ImageNet / Mini-ImageNet / CIFAR100上分别为2.6%/ 2.9%/ 5.0%。
translated by 谷歌翻译
在点击率(CTR)预测方案中,用户的顺序行为很好地利用来捕获最近文献中的用户兴趣。然而,尽管正在广泛研究,但这些顺序方法仍然存在三个限制。首先,现有方法主要利用对用户行为的注意,这并不总是适用于CTR预测,因为用户经常点击与任何历史行为无关的新产品。其次,在真实场景中,很久以前存在许多具有运营的用户,但最近的次数相对不活跃。因此,难以通过早期行为精确地捕获用户的当前偏好。第三,不同特征子空间中用户历史行为的多个表示主要被忽略。为了解决这些问题,我们提出了一种多互动关注网络(Mian),全面提取各种细粒度特征之间的潜在关系(例如,性别,年龄和用户档案)。具体而言,MIAN包含多交互式层(MIL),其集成了三个本地交互模块,通过顺序行为捕获用户偏好的多个表示,并同时利用细粒度的用户特定的以及上下文信息。此外,我们设计了一个全局交互模块(GIM)来学习高阶交互,平衡多个功能的不同影响。最后,脱机实验结果来自三个数据集,以及在大型推荐系统中的在线A / B测试,展示了我们提出的方法的有效性。
translated by 谷歌翻译
在本文中,我们提供了一种使用图形神经网络(GNNS)的理论,用于多节点表示学习(我们有兴趣学习一组多个节点的表示)。我们知道GNN旨在学习单节点表示。当我们想学习涉及多个节点的节点集表示时,先前作品中的常见做法是直接将GNN学习的多节点表示与节点集的关节表示。在本文中,我们显示了这种方法的基本限制,即无法捕获节点集中节点之间的依赖性,并且认为直接聚合各个节点表示不会导致多个节点的有效关节表示。然后,我们注意到,以前的一些成功的工作作品用于多节点表示学习,包括密封,距离编码和ID-GNN,所有使用的节点标记。这些方法根据应用GNN之前的与目标节点集的关系,首先标记图中的节点。然后,在标记的图表中获得的节点表示被聚合到节点集表示中。通过调查其内部机制,我们将这些节点标记技术统一到单个和最基本的形式,即标记技巧。我们证明,通过标记技巧,可以获得足够富有表现力的GNN学习最具表现力的节点集表示,因此原则上可以解决节点集的任何联合学习任务。关于一个重要的双节点表示学习任务,链接预测,验证了我们理论的实验。我们的工作建立了使用GNN在节点集上使用GNN进行联合预测任务的理论基础。
translated by 谷歌翻译
我们在这项工作中展示了内存密集型计算可能导致由于片上存储器访问和CPU-GPU上下文切换开销导致严重的性能问题,以及各种深度学习模型。对于此问题,当前立即(JIT)内核融合和代码生成技术具有局限性,例如粗融合计划探索策略和有限的代码生成能力。我们提出了FusionStecting,一个能够融合内存密集型运营商的深度学习编译器,具有各种数据依赖性和非同一性并行性,进入大型GPU内核,以减少全局内存访问和上下文切换开销。 FusionStecting通过引入中间值的数据重用来扩大融合可以超越先前JIT工作的操作组合范围。它探讨了大型融合空间,以便通过考虑内存访问成本,内核呼叫和资源使用约束来决定最佳融合计划。 FusionStecting通过有效地调整具有域特定成本模型的最佳拼接方案。实验结果表明,与现有技术相比,FusionStecting可以达到2.21倍的加速,平均为1.45倍。除了这些实验结果之外,我们还将我们的方法集成到编译器产品中,并将其部署到具有数千个GPU的AI工作负载的生产集群。该系统已运行超过4个月,平均节省了7,000 GPU小时,每月约有30,000个任务。
translated by 谷歌翻译
Convolutional neural network (CNN) depth is of crucial importance for image super-resolution (SR). However, we observe that deeper networks for image SR are more difficult to train. The lowresolution inputs and features contain abundant low-frequency information, which is treated equally across channels, hence hindering the representational ability of CNNs. To solve these problems, we propose the very deep residual channel attention networks (RCAN). Specifically, we propose a residual in residual (RIR) structure to form very deep network, which consists of several residual groups with long skip connections. Each residual group contains some residual blocks with short skip connections. Meanwhile, RIR allows abundant low-frequency information to be bypassed through multiple skip connections, making the main network focus on learning high-frequency information. Furthermore, we propose a channel attention mechanism to adaptively rescale channel-wise features by considering interdependencies among channels. Extensive experiments show that our RCAN achieves better accuracy and visual improvements against state-of-the-art methods.
translated by 谷歌翻译